﻿ Masteratulde LingvisticăComputațională Curs: Introducerein Lingvistica Computațională Curs 1 Metodeșitehnologiiaplicatetextului Niveluride prelucrarea limbajuluinatural: prelucrări inițialeșisubsintactice Curs: Dan Cristea Seminarii& proiect: Mihaela Onofrei, Dan Cristea Cât de departe poate merge mașina în înțelegerea limbajului? Cerințe pentru examen •Slide-urile cursurilor 1-14, la adresa: https://profs info uaic ro/~dcristea/teaching html => Cursurile Masteratului de Lingvistică Computaţională => Introducere in Lingvistica Computaţională => Cursuri 2020 •Tema de cercetare repartizată studentului •Utilizarea instrumentelor din pagina http://nlptools info uaic ro •Un număr de lecturi obligatorii (atribuite la seminar) •Minimum o intervenție activă la seminar –prezentarea unei lucrări, a unei aplicații, a unei tehnologii NLP etc Domeniul •Lingvistica computaţională(LC) –osatura teoretică –computational linguistics •Prelucrarea limbajului natural–zona aplicativă –natural language processing –tehnologia limbajului natural, natural language technology –tehnologia limbajului uman, human language technology Lingvistica computaţională –osatura teoretică a domeniului •Teoriilelingvistice capătă o exprimare formală •Formalismul computaţional oferă posibilităţi riguroase de descriere a intuiţiilor lingvistice •Dovada succesului: formalizările din lingvistică au fost preluate de informaticieni pentru a plasa pe ele eşafodajul limbajelor formale Domeniul •Îşi propune să studieze limbajul uman ca mijloc de comunicare om-maşină, pentru a intermedia comunicarea om-om, dar și maşină-maşină •Scopul ultim: transformarea imensei acumulări de cunoştinţe umane cuprinse în biblioteca planetară într-o zonă de explorare automată •Instrumentele de lucru: teoretice, empirice şi aplicative •Un domeniu pentru lingvişti şi informaticieni, dar mai ales pentru lingvişti-informaticieni Tehnologia limbajului natural •Limbajul vorbit •Limbajul scris •Limbajul în corelaţie cu alte modalităţi de expresie (multimodalitate) Tehnologiile limbajului natural probează capacitatea de a utiliza limbajul natural în aplicații •Proba supremă: “înțelegerea”textelor => capacitatea de a reacționa corect la mesajul codificat în text –niveluri de analiză: •lexical •morfologic •sintactic •semantic •discurs •pragmatic How to extract the content of texts? •Content (semantic) = the objective knowledge, that one which can be similarly identified by a large collectivity of humans •Understanding language puts to work a diversity of linguistic backgrounds (innate, acquired): –phonological, morphological, lexicalSee the Piaget óChomsky bate: innate óacquired –syntacticde –semanticAll these layers must be –discourse reproduced on machine –pragmatic However, humans process texts differently… •We are not conscious about all these layers of processing •We can easily recognise erroneous messages, by skipping over errors (with respect to morphology, syntax, etc ) –therefore, our way of treating language is more like associations-based than rules-based –we integrate, combine, different sources of knowledge when taking language decisions –when educated, we recognise errors but we are not mislead by them Modules like this one can be organised in chains Language independent module Language specific resources Modules like this one can be organised in chains Language independent module APPROACHES:Language specific symbolicresources statistical neural Modules like this one can be organised in chains Language independent modulecorpora treebanks wordnets verbnets language models (neural, statistical) … APPROACHES:Language specific symbolicresources statistical neural Creation of linguistic resources corpora treebanks wordnets verbnets language models (neural, statistical) … Language specific resources Cum se obțin resursele? Pasul 1: extragerea expertizei umane texttext adnotat Cum se obțin resursele? Pasul 2: sinteza modelelor program de set de învățare/mining/reguli/corelații/ antrenarerețea Exemplu: un parser sintactic (program capabil să extragă arborele sintactic al unei fraze) Parser: software independent de limbă set de reguli simbolice/corelații/ rețeapentrulimbaL Cum se obțin resursele? Pasul 3: evaluarea text Parser sintactic limbă comparare => set de reguli evaluare simbolice/corelații/ rețeapentrulimbaL A language processing pipeline INITIAL SUB-SYNTACTIC SYNTACTIC text PROCESSINGPROCESSINGPROCESSING SEMANTIC DISCOURSE PRAGMATIC PROCESSINGPROCESSINGresultPROCESSING The document layer: processing old texts INITIAL SYNTACTIC text/imaSUB-SYNTACTIC PROCESSINGPROCESSINGgePROCESSING SEMANTIC DISCOURSE PRAGMATIC PROCESSINGPROCESSINGresultPROCESSING The document layer: processing old texts INITIAL SYNTACTIC text/imaSUB-SYNTACTIC PROCESSINGPROCESSINGgePROCESSING SEMANTIC DISCOURSE PRAGMATIC PROCESSINGPROCESSINGresultPROCESSING INTERPRETATIVE IMAGE TRANSCRIPTIONOCRSEGMENTATIONimage CyRo –build a technology that interprets old Cyrillic Romanian •Train OCR classifiers to decode printed, semi-uncial and cursive Cyrillic Romanian documents •Ambitious goals of a mixt consortium –library curators –paleolinguists –image processing experts –computational linguists drd Cristian Pădurariu Probleme: -pete -deteriorări -nealinieri -distorsiuni -set neuniform de caractere -diacritice -scrieri printre rânduri ori pe manșetă -etc The sub-syntactic layer INITIAL SUB-SYNTACTIC textSYNTACTIC PROCESSINGPROCESSINGPROCESSING SEMANTIC DISCOURSE PRAGMATIC PROCESSINGPROCESSINGresultPROCESSING The sub-syntactic layer INITIAL SUB-SYNTACTIC textSYNTACTIC PROCESSINGPROCESSINGPROCESSING SEMANTIC DISCOURSE PRAGMATIC PROCESSINGPROCESSINGresultPROCESSING SENTENCE RECOGNIZE BORDERSTOKENIZATIONPOS-TAGGINGLEMMASNP CHUNKING Sentence level segmentation Solicitat să comenteze un editorial recent al lui Dinu Patriciu, în care acesta preciza că nu crede în social-liberalism şi să aprecieze dacă, astfel, a dat o lovitură de imagine USL, Antonescu a spus că nu ştie dacă Patriciu s-a referit la USL |El a precizat că USL este o uniune social-liberală pentru că reuneşte un partid social-democrat cu un partid naţional liberal | Clause level segmentation Solicitat să comenteze un editorial recent al lui Dinu Patriciu,|în care acesta preciza|că nu crede în social-liberalism|şi să aprecieze |dacă, astfel, a dat o lovitură de imagine USL,| Antonescu a spus|că nu ştie|dacă Patriciu s-a referit la USL | Lexical units Solicitatsăcomentezeuneditorialrecentallui Dinu Patriciu,încareacestaprecizacănu credeînsocial-liberalismşisăapreciezedacă, astfel,adatoloviturădeimagineUSL, AntonescuaspuscănuştiedacăPatricius-a referitlaUSL Lemma and part of speech (POS) Solicitat–solicita –vb să –să –conj comenteze –comenta –vb două –doi –num editoriale –editorial –sb recente –recent –adj Phonetical alternations in the root mănânc–mănânci –mănâncă mâncăm –mâncați Annotation to lemma, nominal group and syntax He did not know her name Morphological annotation •English 0 1Hehesubj:>2@SUBJ PRON 2diddov-ch:>4@+FAUXV V 3notnotneg:>2@ADVL NEG-PART 4knowknowmain:>0@-FMAINV V 5hershesubj:>6@OBJ PRON 6namenameobj:>4@-FMAINV V •Romanian Nu ştia cum o cheamă Morphological analysis dr Radu Simionescu